Gemini Robotics-ER 1.5 (2025-10-08)
1. 물리적 에이전트 시대의 개막
1.1 체화된 AI(Embodied AI)의 패러다임 전환
인공지능(AI) 기술은 지금까지 주로 텍스트, 이미지, 오디오, 비디오 등 디지털 영역의 데이터를 처리하고 생성하는 데 국한되어 있었다.1 그러나 AI가 인간의 삶에 실질적으로 기여하기 위해서는 디지털 세계를 넘어 물리적 현실과 상호작용하는 능력이 필수적이다. 이를 위해 AI는 ‘체화된 추론(Embodied Reasoning)’ 능력을 갖추어야 한다. 이는 인간과 같이 주변 환경을 총체적으로 이해하고, 변화에 반응하며, 주어진 과업을 안전하게 수행하는 능력을 의미한다.1 이러한 능력은 로봇이 단순히 사전에 프로그래밍된 명령을 따르는 기계를 넘어, 예측 불가능한 실제 환경에서 스스로 판단하고 행동하는 진정한 범용 목적(general-purpose) 기계로 거듭나기 위한 핵심 전제 조건이다.3
1.2 Gemini Robotics-ER 1.5의 포지셔닝
Google DeepMind는 Gemini Robotics-ER 1.5를 통해 ‘물리적 에이전트(physical agents)’ 시대의 개막을 선언했다.3 이 모델은 로봇 시스템의 중추적인 ‘두뇌’ 역할을 수행하도록 설계된 최첨단 비전-언어 모델(Vision-Language Model, VLM)이다.3 Gemini Robotics-ER 1.5는 로봇의 물리적 동작을 직접 제어하기보다는, 고수준의 전략적 계획을 수립하고, 물리적 환경에 대한 깊이 있는 추론을 통해 행동의 방향을 제시하는 역할을 담당한다.
1.3 보고서의 구조 및 분석 범위
본 보고서는 Gemini Robotics-ER 1.5의 기술적 아키텍처, 핵심 기능, 성능 평가, 그리고 로봇 개발 생태계에 미치는 영향을 심층적으로 분석한다. 특히, 물리적 실행을 담당하는 Gemini Robotics 1.5 (VLA 모델)와의 상호작용을 통해 구성되는 이중 모델 시스템의 시너지 효과를 집중적으로 조명하여, 이 기술이 제시하는 체화된 AI의 미래를 조망한다.
이러한 접근 방식은 Google이 ’로봇’이라는 특정 하드웨어 플랫폼 자체보다, 그 로봇을 구동하는 ’지능’의 일반화(generalization)에 전략적 초점을 맞추고 있음을 시사한다. 다양한 형태(embodiment)의 로봇에 구애받지 않는 범용 ‘로봇 두뇌’ 소프트웨어 스택을 구축하려는 시도는 Gemini Robotics-ER 1.5의 출시를 통해 구체화되었다.4 이는 특정 하드웨어에 종속된 모델 개발의 어려움을 극복하고, 다양한 로봇 제조사들이 Google의 AI를 라이선스하여 각자의 영역에서 특화된 문제를 해결하는 새로운 생태계를 조성하려는 장기적인 비전의 일환으로 해석될 수 있다.7
2. Gemini 로보틱스 시스템의 이중 모델 아키텍처
Gemini 로보틱스 시스템의 가장 큰 특징은 추론과 실행을 담당하는 두 개의 전문화된 모델을 결합한 이중 모델 아키텍처(dual-model approach)에 있다.4 이 구조는 복잡한 문제를 해결하는 데 있어 시스템의 모듈성과 일반화 능력을 극대화한다.
2.1 Gemini Robotics-ER 1.5: 전략적 두뇌 (The Strategic Brain)
Gemini Robotics-ER 1.5는 시스템의 ’전략적 두뇌’로서, 최첨단 체화된 추론(state-of-the-art embodied reasoning) 모델로 정의된다.4 이 모델은 물리적 환경 내에서 고수준의 계획을 수립하고, 논리적 의사결정을 내리며, 공간적 관계를 이해하는 데 특화된 VLM이다.3 로봇의 팔이나 다리를 직접 제어하는 대신, 다음에 무엇을, 왜, 어떻게 해야 할지에 대한 고수준의 통찰과 계획을 자연어 형태의 지시로 생성하여 하위 시스템에 전달한다.4 예를 들어, “부엌을 청소하라“와 같은 광범위하고 추상적인 지시를 받으면, 이를 ‘카운터 위의 물건 정리하기’, ‘식기 세척기에 그릇 넣기’, ’조리대 표면 닦기’와 같은 구체적이고 실행 가능한 하위 단계로 분해(deconstruct)하는 작업 오케스트레이션(Task Orchestration)을 수행한다.3
2.2 Gemini Robotics 1.5: 행위자 (The Actor)
Gemini Robotics 1.5는 시스템의 ’행위자’로서, Google의 가장 뛰어난 비전-언어-행동(Vision-Language-Action, VLA) 모델이다.4 이 모델의 핵심 역할은 시각 정보(vision)와 ER 1.5로부터 받은 자연어 지시(language)를 로봇의 실제 움직임을 제어하는 모터 명령(action)으로 직접 변환하는 것이다.5 즉, ER 1.5가 수립한 전략적 계획을 물리적 세계에서 실행하는 ’손과 눈’의 역할을 담당한다.3 이 모델의 주요 강점 중 하나는 서로 다른 로봇 형태(embodiments)에 걸쳐 학습한 동작을 전이(transfer)하는 능력이다.5 이 덕분에 특정 로봇에 대한 추가적인 미세조정(fine-tuning) 없이도, 예를 들어 ALOHA 2 로봇에서 학습한 기술을 Apptronik의 휴머노이드 로봇 Apollo나 Franka 로봇에 즉시 적용할 수 있다.10
2.3 상호작용 및 시너지: 계획과 실행의 통합
두 모델은 긴밀하게 상호작용하며 시너지를 창출한다. 정보 흐름은 다음과 같다: 사용자가 장기 과제(long-horizon task)를 지시하면, 먼저 ER 1.5가 이를 분석하여 단계별 실행 계획을 자연어로 생성한다. 그 후, VLA 1.5는 이 계획의 각 단계를 순차적으로 받아 해당 행동을 물리적으로 수행한다.3 이처럼 추론과 실행을 명확히 분리하는 아키텍처는 시스템의 유연성과 확장성을 크게 향상시킨다. 고수준의 추론 능력은 다양한 로봇 하드웨어 플랫폼에 공유될 수 있어, 로봇 AI 개발의 효율성과 일반화 가능성을 한 단계 끌어올린다.7
이러한 이중 모델 아키텍처는 로봇 공학 분야의 오랜 난제였던 ’기호 기반 계획(Symbolic Planning)’과 ‘저수준 제어(Low-level Control)’ 사이의 간극을 메우려는 현대적인 시도로 평가할 수 있다. 전통적인 로봇 시스템은 추상적인 기호 명령을 정교한 모션 플래닝 알고리즘을 통해 궤적으로 변환했지만, 유연성이 부족했다. 반면, 최근의 종단간(end-to-end) VLA 모델들은 이미지와 언어로부터 직접 행동을 출력하여 유연성을 높였으나, 복잡하고 장기적인 계획 수립에는 한계를 보였다.11 Gemini 로보틱스 시스템은 ER 1.5가 “어떤 물건을, 왜, 어떤 순서로 다룰 것인가?“라는 기호적 추론을 담당하고, VLA 1.5가 “이 물건을 물리적으로 어떻게 다룰 것인가?“라는 저수준의 연속적 제어 문제를 해결하도록 역할을 분담함으로써, 고전적 AI 계획 시스템의 구조적 장점과 최신 딥러닝 제어 시스템의 유연성을 결합한 하이브리드 접근법을 구현했다.
| 특징 | Gemini Robotics-ER 1.5 | Gemini Robotics 1.5 |
|---|---|---|
| 모델 유형 | 비전-언어 모델 (VLM) | 비전-언어-행동 모델 (VLA) |
| 주요 역할 | 전략적 두뇌 (Strategic Brain) | 행위자 (Actor) / 손과 눈 |
| 핵심 역량 | 고수준 계획, 체화된 추론, 작업 분해, 도구 호출 | 모터 제어, 동작 전이, 물리적 실행 |
| 출력 형태 | 자연어 계획, 구조화된 데이터 (좌표), 도구 호출 | 로봇 모터 제어 명령 |
3. Gemini Robotics-ER 1.5의 핵심 기술 역량
Gemini Robotics-ER 1.5는 로봇이 물리적 세계를 깊이 있게 이해하고 상호작용할 수 있도록 지원하는 다양한 핵심 기술 역량을 갖추고 있다.
3.1 체화된 추론(Embodied Reasoning)의 구체화
체화된 추론은 로봇 애플리케이션에 필수적인 물리적 세계에 대한 시각-공간-시간적(visuo-spatial-temporal) 이해 능력으로 정의된다.13 이는 단순히 객체를 인식하는 수준을 넘어, 객체 간의 관계, 시간에 따른 상태 변화, 그리고 물리적 상호작용의 인과관계를 종합적으로 파악하는 고차원적인 능력이다.2
- 정밀 2D 포인팅 및 객체 탐지: 이미지 내 특정 객체나 그 일부에 대한 정밀한 2D 좌표를 생성하는 능력은 체화된 추론의 기본이다.6 이 좌표 정보는 로봇의 3D 센서 데이터(예: 깊이 카메라)와 결합되어 객체의 정확한 3차원 공간 위치를 파악하는 데 사용되며, 이는 정밀한 모션 계획 수립의 기초가 된다.6
- 시간적 추론: 모델은 비디오 스트림을 처리하여 물리적 세계에서 발생하는 사건들의 인과관계를 이해한다. 예를 들어, 로봇 팔이 여러 물체를 순서대로 옮기는 영상을 보고 각 작업이 어떤 순서로, 언제 일어났는지 정확히 설명할 수 있다.6 이는 단순한 장면 인식을 넘어 동적인 환경 변화를 이해하는 능력이다.
- 기능적 속성(Affordance) 이해: 객체의 시각적 정보를 바탕으로 그 객체와 상호작용할 수 있는 방법을 추론한다. 예를 들어, 컵의 손잡이를 보고 ’잡을 수 있는 부분’으로 인식하거나, 테이블의 빈 공간을 보고 ’물건을 놓을 수 있는 곳’으로 판단하는 능력이다.6 이는 객체의 크기, 무게, 형태 등 물리적 속성에 대한 깊은 이해를 바탕으로 한다.
3.2 에이전트 기반 작업 오케스트레이션 (Agentic Orchestration)
ER 1.5는 수동적인 정보 처리기를 넘어, 목표 달성을 위해 능동적으로 계획하고 자원을 활용하는 에이전트(agent)로서 기능한다.
- 장기 과제 분해: “책상을 이 사진처럼 정리해줘“와 같이 복잡하고 여러 단계로 이루어진(long-horizon) 자연어 명령을 받으면, 이를 실행 가능한 하위 작업들의 순차적 계획으로 자동 분해한다.6
- 외부 도구 호출(Tool Calling): 모델이 내장된 지식만으로 문제를 해결할 수 없을 때, Google 검색과 같은 외부 정보 소스나 사용자 정의 함수(user-defined functions)와 같은 외부 도구를 능동적으로 호출하여 필요한 정보를 획득한다.5 예를 들어, “지역 규정에 따라 쓰레기를 분리수거해줘“라는 명령을 수행하기 위해, 모델은 먼저 웹 검색을 통해 해당 지역의 분리수거 규정을 찾아보고 그에 따라 계획을 수립한다.6 이는 모델의 문제 해결 범위를 크게 확장시키는 핵심 기능이다.
3.3 “사고 후 행동” 패러다임: Embodied Thinking
’Embodied Thinking’은 Gemini 로보틱스 시스템의 핵심 혁신 중 하나로, VLA 모델(Gemini Robotics 1.5)이 물리적 행동을 수행하기 전에 자신의 계획과 추론 과정을 자연어 형태의 내적 독백(internal monologue)으로 명시적으로 생성하는 메커니즘이다.5 예를 들어, 빨래를 분류하는 로봇은 “이것은 색깔별로 분류하라는 의미군. 흰 옷은 흰 통에, 다른 색 옷은 검은 통에 넣어야지. 따라서 나는 지금 이 빨간 옷을 집어서 검은 통으로 옮길 것이다“와 같이 자신의 행동 이유와 계획을 스스로 설명한다.10
이 과정은 단순히 투명성을 높이는 것을 넘어, 모델의 일반화 성능을 향상시키는 핵심적인 자기 규제(self-regulation) 메커니즘으로 작용한다. 기존 VLA 모델이 관측에서 행동으로 직접 매핑하는 ‘반사적’ 행동에 가까웠다면, ’Embodied Thinking’은 그 사이에 ‘추론’ 단계를 명시적으로 삽입한다.5 이 추론이 Gemini와 같은 거대 언어 모델(LLM)이 가장 잘 훈련된 자연어로 이루어지기 때문에, 복잡한 물리적 세계의 문제를 LLM이 가장 잘 다룰 수 있는 언어적 문제로 변환하여 해결하는 효과를 낳는다. 이는 모델이 행동하기 전에 자신의 계획을 언어적으로 정당화하고 검토하도록 강제함으로써, 더 신중하고 설명 가능하며, 훈련 데이터에 없던 새로운 상황에 더 강건하게 대처하는 일종의 ‘메타인지(metacognition)’ 능력을 부여한다. 이 능력은 과제의 성공 또는 실패를 스스로 감지하고 복구 행동을 제안하는 능력의 기반이 되기도 한다.13
3.4 유연한 사고 예산(Flexible Thinking Budget)
’유연한 사고 예산’은 개발자가 모델의 추론 성능과 응답 속도 사이의 균형을 실용적으로 제어할 수 있게 하는 기능이다.6 개발자는 ’사고 토큰 예산(thinking token budget)’을 조절하여 모델이 추론에 얼마나 많은 컴퓨팅 자원을 사용할지 결정할 수 있다.6 예를 들어, 단순히 물체를 가리키는 것처럼 빠른 반응이 중요한 작업에는 낮은 예산을 할당하여 지연 시간(latency)을 최소화하고, 여러 단계로 구성된 조립 계획을 세우는 것처럼 복잡한 추론이 필요한 작업에는 높은 예산을 할당하여 정확도(accuracy)를 극대화할 수 있다. 일반적으로 사고 예산이 클수록 모델의 성능은 향상되는 경향을 보인다.6
4. 성능 평가 및 벤치마크 분석
Gemini Robotics-ER 1.5의 성능은 다양한 학술 및 내부 벤치마크를 통해 검증되었으며, 특히 체화된 추론과 안전성 분야에서 뛰어난 결과를 보였다.
4.1 체화된 추론 벤치마크 성능
Gemini Robotics-ER 1.5는 총 15개의 학술 및 내부 벤치마크에서 최첨단(State-of-the-Art, SOTA) 성능을 달성했다고 보고되었다.5 특히 주목할 만한 것은 Google이 직접 개발에 참여한 ERQA(Embodied Reasoning Question Answering) 벤치마크에서의 성과이다. ERQA는 물리적 환경에 대한 깊이 있는 이해와 추론 능력을 평가하기 위해 특별히 설계된 벤치마크로, Gemini 2.0 Pro Experimental 모델은 이 벤치마크에서 GPT, Claude 등 다른 프론티어 VLM들을 능가하는 성능을 보였다.2 또한, 연쇄적 사고(Chain-of-Thought, CoT) 프롬프팅을 적용했을 때 성능이 유의미하게 향상되는 결과는, ’Embodied Thinking’과 같이 명시적인 추론 과정을 거치는 것이 체화된 AI의 성능에 긍정적인 영향을 미친다는 점을 시사한다.2
| 모델 | Without CoT | With CoT |
|---|---|---|
| Gemini 2.0 Flash | 46.3% | 50.3% |
| Gemini 2.0 Pro Experimental | 48.3% | 54.8% |
| GPT 4o-mini | 37.3% | 40.5% |
| GPT 4o | 47.0% | 50.5% |
| Claude 3.5 Sonnet | 35.5% | 45.8% |
4.2 안전성 평가: ASIMOV 벤치마크
로봇이 물리적 세계에서 활동하기 시작하면서 안전성은 무엇보다 중요한 문제가 되었다. Gemini 로보틱스는 단순히 물리적 충돌을 회피하는 고전적 안전 개념을 넘어, ’의미론적 안전성(Semantic Safety)’이라는 새로운 차원의 안전을 추구한다.1 의미론적 안전성이란, 로봇의 행동이 야기할 수 있는 상황적, 문맥적 위험을 이해하고 이를 사전에 방지하는 능력을 말한다. 예를 들어, “알레르기가 있는 사람에게 땅콩을 주지 않아야 한다“거나 “뜨거운 스토브 위에 인화성 물질을 올려놓지 않아야 한다“와 같은 상식적 판단이 여기에 해당한다.14
이러한 의미론적 안전성을 정량적으로 평가하기 위해 Google은 ASIMOV 벤치마크를 개발했다.5 이 벤치마크는 실제 병원의 상해 보고서 데이터나 위험한 상황을 묘사하는 이미지 및 텍스트 데이터를 기반으로 구성되어, 모델이 다양한 잠재적 위험 상황을 얼마나 잘 인지하고 회피하는지를 평가한다.15 Gemini Robotics-ER 1.5는 이 ASIMOV 벤치마크에서 SOTA 성능을 기록했으며, 특히 모델의 ‘사고(thinking)’ 능력이 의미론적 안전성을 이해하고 물리적 안전 제약을 준수하는 데 결정적인 기여를 한 것으로 분석되었다.5
Google이 자사의 모델을 출시하면서 동시에 ERQA와 ASIMOV라는 새로운 벤치마크를 함께 제안하는 것은 중요한 전략적 의미를 가진다. 이는 단순히 자사 모델의 성능을 입증하는 것을 넘어, ‘체화된 AI’ 분야의 평가 기준 자체를 자신들의 기술 철학, 즉 의미론적 이해와 안전성에 부합하는 방향으로 주도하려는 움직임이다. 새로운 기술이 등장할 때 그 성능을 평가하는 기준을 선점하는 것은, 경쟁사들이 따라와야 할 ’게임의 규칙’을 설정함으로써 기술적 리더십과 시장의 인식을 동시에 장악하는 효과적인 전략이 될 수 있다.
5. 개발자 생태계 및 활용
5.1 API 접근성 및 현재 상태
개발자들은 Google AI Studio를 통해 Gemini API의 일부로서 Gemini Robotics-ER 1.5 모델에 접근할 수 있다.5 이 모델은 현재 ‘미리보기(Preview)’ 상태로 제공되고 있으며, 이는 개발자들이 초기 단계부터 이 기술을 탐색하고 피드백을 제공할 기회를 가짐을 의미한다.9 주목할 점은, 물리적 실행을 담당하는 VLA 모델보다 추론을 담당하는 ER 1.5 모델을 API로 먼저 공개했다는 사실이다. 이는 개발자들이 이미 보유하고 있는 다양한 로봇 제어 시스템에 Gemini의 강력한 ’두뇌’를 쉽게 통합할 수 있도록 하여, 관련 생태계를 빠르게 확장하려는 전략적 의도로 해석된다.5
5.2 잠재적 응용 분야 및 과제
Gemini 로보틱스 시스템은 특정 작업에만 국한되지 않는 범용 로봇(general-purpose robots) 개발을 가속화할 막대한 잠재력을 지닌다.3 이는 통제된 환경인 공장 자동화를 넘어, 가정, 사무실, 병원 등 예측 불가능하고 동적인 인간 중심의 환경에서 로봇이 실질적인 도움을 줄 수 있는 길을 열어준다.10 더 나아가, 이 기술은 디지털 세계에 머물던 AI의 지능을 물리적 세계로 확장시켜 인공일반지능(Artificial General Intelligence, AGI)을 실현하기 위한 중요한 이정표로 평가받고 있다.3
그러나 이러한 잠재력과 함께 중대한 책임과 과제도 따른다. 생성형 AI 모델은 여전히 실수를 할 수 있으며, 물리적 로봇과 결합될 경우 그 결과는 디지털 오류와 비교할 수 없는 심각한 손상이나 안전 문제로 이어질 수 있다.9 따라서 로봇 주변의 안전한 환경을 유지하고, 예기치 않은 오작동에 대비하는 것은 전적으로 개발자의 책임임이 강조된다. 로봇 AI의 안전성 확보는 여전히 활발하고 중요한 연구 분야로 남아있다.9
Gemini Robotics-ER 1.5의 출시는 로봇 개발의 패러다임을 ’하드웨어 중심’에서 ’AI 중심’으로 전환시키는 촉매제가 될 것이다. 과거 로봇의 성능이 기계적 정밀도나 제어 알고리즘의 정교함에 의해 좌우되었다면, 미래에는 얼마나 뛰어난 ‘두뇌’, 즉 AI 모델을 탑재했는지가 핵심 경쟁력이 될 것이다. 이는 AI 컨설턴트 Sonia Sarao가 언급했듯이, “소규모 로봇 스타트업도 Google의 강력한 AI를 라이선스하여 특정 틈새 시장을 공략하는” 새로운 비즈니스 모델의 등장을 예고한다.7 로봇 개발의 진입 장벽이 낮아지면서, 다양한 형태와 목적을 가진 로봇 애플리케이션이 폭발적으로 증가하는 혁신적인 변화를 기대할 수 있다.
6. 결론: 체화된 AI의 새로운 지평
Gemini Robotics-ER 1.5는 인공지능이 디지털 경계를 넘어 물리적 세계와 의미 있는 상호작용을 시작하는 중요한 전환점을 제시한다. 이 모델은 로봇 AI 개발의 패러다임을 근본적으로 바꾸는 몇 가지 핵심적인 기술적 진보를 이뤄냈다.
6.1 핵심 기술적 진보 요약
첫째, 추론(ER 1.5)과 실행(VLA 1.5)을 명확히 분리한 혁신적인 이중 모델 아키텍처는 로봇 AI 시스템의 모듈성과 확장성을 전례 없는 수준으로 끌어올렸다. 이를 통해 고수준의 지능을 다양한 하드웨어에 이식하는 것이 용이해졌다. 둘째, ‘Embodied Thinking’ 패러다임은 로봇의 행동에 깊이와 투명성을 더했다. 행동 전에 자신의 계획을 언어로 명시화하는 과정은 로봇의 의사결정을 더 신뢰할 수 있고 강건하게 만들었다. 마지막으로, ’Flexible Thinking Budget’과 같은 실용적인 기능은 개발자에게 성능과 효율성 사이의 균형을 맞출 수 있는 제어권을 부여하여 실제 애플리케이션 개발의 현실적인 요구를 충족시켰다.
6.2 미래 전망
이러한 기술적 진보는 로봇이 단순히 프로그래밍된 작업을 반복하는 기계에서 벗어나, 주변 환경을 이해하고, 추론하며, 예측 불가능한 상황에 능동적으로 적응하는 진정한 ’물리적 에이전트’로 진화하는 데 결정적인 역할을 할 것이다. 물론, 생성형 AI의 본질적인 한계와 물리적 세계에서의 안전성 및 신뢰성 확보라는 지속적인 과제는 여전히 남아있다. 그럼에도 불구하고, Gemini Robotics-ER 1.5는 디지털 세계에 머물던 AI의 강력한 능력을 물리적 현실로 확장하며, 인간과 AI가 실세계에서 공존하고 협력하는 미래를 향한 중요한 첫걸음을 내디뎠다. 이는 향후 로봇 공학 및 인공지능 연구의 방향을 제시하는 이정표가 될 것이다.
7. 참고 자료
- Gemini Robotics brings AI into the physical world - Google DeepMind, https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/
- Gemini Robotics: Bringing AI into the Physical World - arXiv, https://arxiv.org/html/2503.20020v1
- Robots That Reason: Google’s Gemini 1.5 Raises the Bar - eWeek, https://www.eweek.com/news/google-gemini-robotics-1-5-er-1-5-launch/
- Gemini Robotics-ER - Google DeepMind, https://deepmind.google/models/gemini-robotics/gemini-robotics-er/
- Gemini Robotics 1.5 brings AI agents into the physical world - Google DeepMind, https://deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
- Building the Next Generation of Physical Agents with Gemini …, https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/
- DeepMind Release Gemini Robotics-ER 1.5 for Embodied Reasoning - InfoQ, https://www.infoq.com/news/2025/09/deepmind-gemini-robotics/
- Responsibly advancing AI and robotics - Google DeepMind, https://deepmind.google/models/gemini-robotics/responsibly-advancing-ai-and-robotics/
- Gemini Robotics-ER 1.5 | Gemini API | Google AI for Developers, https://ai.google.dev/gemini-api/docs/robotics-overview
- From Tools to Partners: Google’s Gemini Robotics 1.5 Moves Beyond Automation Towards True Intelligence - Greg Robison, https://gregrobison.medium.com/from-tools-to-partners-googles-gemini-robotics-1-5-640c3828129e
- RT-2: New model translates vision and language into action - Google DeepMind, https://deepmind.google/discover/blog/rt-2-new-model-translates-vision-and-language-into-action/
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control - arXiv, https://arxiv.org/abs/2307.15818
- Gemini Robotics 1.5: Pushing the Frontier of … - Googleapis.com, https://storage.googleapis.com/deepmind-media/gemini-robotics/Gemini-Robotics-1-5-Tech-Report.pdf
- (PDF) Generating Robot Constitutions & Benchmarks for Semantic Safety - ResearchGate, https://www.researchgate.net/publication/389749133_Generating_Robot_Constitutions_Benchmarks_for_Semantic_Safety
- Generating Robot Constitutions & Benchmarks for Semantic Safety - arXiv, https://arxiv.org/html/2503.08663v1
- ASIMOV Benchmark v1, https://asimov-benchmark.github.io/